Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo
%20(1).webp)
Mô hình AI của Meta "I-JEPA" hướng tới AI giống con người
Theo Meta AI, nhà khoa học trưởng về AI Yann LeCun đã công bố I-JEPA, một kiến trúc AI nhằm đạt được trí thông minh giống con người. I-JEPA là viết tắt của Kiến trúc dự đoán nhúng liên kết hình ảnh và cho biết đây là một bước tiến lớn trong phát triển AI. Nó thể hiện tầm nhìn của LeCun về việc tạo ra những cỗ máy học hỏi các mô hình nội bộ của thế giới, cho phép học hỏi nhanh chóng, lập kế hoạch nhiệm vụ phức tạp và khả năng thích ứng.
Không giống như các mô hình AI truyền thống, I-JEPA học bằng cách tạo ra một mô hình bên trong của thế giới bên ngoài đồng thời so sánh các biểu diễn trừu tượng của hình ảnh thay vì pixel. Cách tiếp cận này không chỉ thể hiện hiệu suất mạnh mẽ trong các tác vụ thị giác máy tính mà còn thể hiện hiệu quả tính toán vượt trội so với các mô hình hiện có. Ngoài ra, các cách biểu diễn mà I-JEPA học được có thể được áp dụng cho nhiều ứng dụng khác nhau mà không cần tinh chỉnh rộng rãi, thể hiện tính linh hoạt cao của nó.
Để chứng minh khả năng của mình, I-JEPA đã đào tạo mô hình chuyển đổi hình ảnh trong vòng chưa đầy 72 giờ bằng cách sử dụng 16 GPU A100. Ngoài ra, ImageNet đã đạt được hiệu suất tiên tiến trong các nhiệm vụ phân loại tốc độ thấp chỉ với 12 mẫu được gắn nhãn cho mỗi lớp. Nền tảng của I-JEPA là thu thập kiến thức thông thường bằng cách quan sát thụ động dữ liệu không được gắn nhãn như hình ảnh và âm thanh, thúc đẩy hành vi thông minh, tiếp thu khái niệm hiệu quả, xây dựng nền tảng, lập kế hoạch, v.v. Ông giải thích rằng nó dựa trên quá trình học tập tự giám sát.
Một khía cạnh thiết yếu của I-JEPA là khả năng dự đoán thông tin còn thiếu bằng cách sử dụng các biểu thức trừu tượng gần với hiểu biết của con người. I-JEPA nhấn mạnh các tính năng ngữ nghĩa và loại bỏ các chi tiết cấp pixel không cần thiết. Ông đã chứng minh rằng mô hình dự đoán các khối lớn chứa thông tin ngữ nghĩa và kết hợp bối cảnh phân bố theo không gian bằng cách sử dụng chiến lược che giấu nhiều khối.
Hiệu quả cao của I-JEPA đến từ việc xử lý các lượt xem hình ảnh bằng bộ mã hóa đích và các khối ngữ cảnh bằng bộ mã hóa ngữ cảnh. Cách tiếp cận này cung cấp một cách biểu diễn ngữ nghĩa sẵn có mạnh mẽ mà không cần phải tăng cường tính toán dữ liệu chuyên sâu hoặc xem nhiều hình ảnh.
I-JEPA thể hiện một bước tiến quan trọng hướng tới việc đạt được trí thông minh ở cấp độ con người trong AI. Meta có kế hoạch mở rộng cách tiếp cận Kiến trúc dự đoán nhúng chung sang các lĩnh vực khác như cặp hình ảnh-văn bản và video. Họ cho rằng những tiến bộ này có tiềm năng cách mạng hóa các nhiệm vụ như hiểu video và mở đường cho các phương pháp tự giám sát để học các mô hình toàn diện trên thế giới.
Chia sẻ bài viết này:

%20(1).webp)
%20(1).webp)